查看原文
其他

同期两篇Science | 人工智能革新蛋白质设计:准确而快速地创造蛋白质

iseqer 测序中国 2022-11-14

在过去的两年里,机器学习彻底改变了蛋白质预测和设计的研究进展。7月28日,Alphabet旗下DeepMind公司表示,AlphaFold已经预测了全球几乎所有的蛋白质结构,其蛋白质结构数据库中的数据从200万个扩增到超2亿个。AlphaFold是继AlphaGo之后,DeepMind重磅打造的一款智能人工系统,主要被用于预测蛋白质结构。

但先进如AlphaFold也只能预测天然蛋白质结构,如何从头设计全新的功能性蛋白质分子仍是生物学研究的一个挑战。深度学习生成方法提供了广泛探索天然蛋白质之外的蛋白质结构的机会。

9月15日,科学突破奖获得者、华盛顿大学医学院David Baker教授团队在国际顶级期刊Science上同期发表两篇文章“Robust deep learning–based protein sequence design using ProteinMPNN”和“Hallucinating symmetric protein assemblies”。Baker团队开发了一种基于深度学习的蛋白质序列设计方法ProteinMPNN。结果显示,ProteinMPNN的序列回收率为52.4%,具有广泛的实用性和高准确性。两项研究成果表明,机器学习可以用于创建蛋白质分子,且更加准确快速。

Baker教授表示:“蛋白质是生物学研究的基础。但我们知道,目前在植物、动物和微生物中发现的蛋白质远不到所有蛋白质的1%。有了这些新的软件工具,研究人员能够找到解决医学、能源和技术中长期挑战的更多方法。”

包括AlphaFold和RoseTTAFold在内的强大机器学习算法已经被训练成仅根据氨基酸序列来预测天然蛋白质的结构。为了超越自然界中发现的蛋白质,研究团队将蛋白质设计的挑战分解为三个部分,并为每个部分提供新的软件解决方案。
首先,必须生成新的蛋白质形状。该研究团队于7月21日发表在Science上的研究表明,人工智能可以通过两种方式生成新的蛋白质形状。第一种被称为“hallucination”(幻想),类似于DALL-E或其他基于简单提示输出的人工智能生成工具。第二种称为“inpainting”(修复),类似于现代搜索栏中的自动补全功能。
第二,为了加速蛋白质生成过程,研究团队设计了一种生成氨基酸序列的新算法,并将这一超快速软件工具命名为ProteinMPNN。ProteinMPNN运行时间大约为1秒钟,比已有的最好软件快200多倍,其性能表现优于已有的工具,并且运行该软件不需要专家定制。

图:使用ProteinMPNN设计蛋白质的细节,来源:Ian Haydon, UW Medicine Institute for Protein

第三,研究团队使用AlphaFold独立评估了其设计的氨基酸序列能否折叠成预期的形状。
结果显示,在天然蛋白质骨架上,ProteinMPNN的序列回收率为52.4%,而Rosetta为32.9%。ProteinMPNN设计不同位置的氨基酸序列可以在单链或多链之间偶联,使其应用于当前蛋白质设计的广泛挑战成为可能。对于ProteinMPNN设计新生成的蛋白质,研究团队利用电子显微镜观察到30种全新的蛋白质结构,包括纳米环结构,其直径仅为罂粟籽的十亿分之一。

图:ProteinMPNN产生了对称的纳米环形结构蛋白质组合。来源:Ian Haydon, UW Medicine Institute for Protein

在Baker实验室同期发表的另一篇论文“Hallucinating symmetric protein assemblies”中,研究团队证实,新的机器学习工具组合能够可靠地产生在实验室中发挥作用的新蛋白质。使用ProteinMPNN制造的蛋白质更有可能按照预期折叠,因此可以使用这一方法制造非常复杂的蛋白质装配体。

图:超快速软件工具ProteinMPNN设计的蛋白质更有可能按预期折叠。来源:Ian Haydon, UW Medicine Institute for Protein

“如果你有大量数据,神经网络很容易训练,但对于蛋白质没有那么多数据可以使用。因此我们不得不识别这些分子中哪些特征是最重要的,”Baker实验室的Justas Dauparas博士解释。“预测蛋白质结构的软件是解决方案的一部分,但这种软件自己不能创造任何新的蛋白质。ProteinMPNN之于蛋白质设计,犹如AlphaFold之于蛋白质结构预测。”
上述两篇研究开发并证明了ProteinMPNN的广泛实用性和高准确性,弥补了以前使用Rosetta或AlphaFold进行的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶结合蛋白的不足。“这是利用机器学习进行蛋白质设计的开始,” Baker教授表示。“在未来的几个月里,我们将致力于改进这些工具,以创造出更具活力和功能的蛋白质。”

参考资料:

1.Robust deep learning–based protein sequence design using ProteinMPNN.      SCIENCE,  2022. DOI: 10.1126/science.add2187

https://www.science.org/doi/10.1126/science.add2187

2.Hallucinating symmetric protein assemblies.      SCIENCE, 2022. 

3.

·END ·

热文推荐


华中科技大学郭安源教授团队首次鉴定单个细胞外囊泡中的RNA特征

74种疾病130万个细胞!scRNA-seq与多基因疾病风险联合揭示单细胞疾病相关性

研究证实cfDNA中含有肿瘤特异性TF结合信息,可利用血浆绘制肿瘤调控图谱

专访华大智造蒋慧博士、单日强先生:硬件软件双重核心工具助力大人群基因组研究


喜欢就点个“在看”吧


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存